Preparación de los datos

En todas las secciones se emplea el Boston Housing Dataset, que contiene información de 506 distritos de Boston. Se destacan las variables lstat (% población en bajo estatus), rm (habitaciones promedio), chas (colindancia con río Charles) y medv (valor medio de vivienda en miles de dólares).

1. Dispersión Tridimensional (lstat, rm, medv)

Descripción: La dispersión tridimensional permite observar cómo interaccionan simultáneamente lstat, rm y medv, diferenciando además la proximidad al río Charles mediante chas.

Análisis: Se evidencia una fuerte relación negativa entre lstat y medv, acompañada de un efecto marginal decreciente en rangos elevados. El número de habitaciones (rm) contribuye positivamente casi de forma lineal, con ligeros indicios de rendimientos decrecientes. La variable chas añade un desplazamiento constante al alza en medv, sin alterar la forma de la superficie de datos.

2. Histograma de lstat con Curva de Densidad

Descripción: El histograma muestra la frecuencia relativa de valores de lstat, acompañado por una curva de densidad Kernel que suaviza la forma de la distribución.

Análisis: La distribución exhibe sesgo positivo, con un pico en torno al 10–12% y una larga cola hasta el 35–38%. Este patrón indica un continuum de niveles socioeconómicos, con barrios de alta pobreza como valores atípicos. La estimación por núcleos revela la necesidad de considerar transformaciones y atención a posibles heterocedasticidades en modelado.

3. Dispersión 2D (lstat vs medv) con Suavizado LOESS

Descripción: El diagrama de dispersión bidimensional muestra la relación entre lstat y medv, complementada con un ajuste semiparamétrico LOESS y diferenciación por chas.

Análisis: La curva LOESS demuestra que la sensibilidad del precio disminuye conforme aumenta lstat, con una caída inicial pronunciada seguida de un aplanamiento. Esto confirma rendimientos marginales decrecientes y respalda el uso de modelos flexibles. La proximidad al río desplaza la curva al alza de modo constante.

Conclusiones

Este análisis, fundamentado en teorías de estimación no paramétrica y regresión local, demuestra que:

  1. Relaciones no lineales: La influencia de lstat sobre medv se atenúa en niveles elevados, lo que justifica el uso de modelos flexibles (LOESS, splines o polinomios de segundo grado).
  2. Efecto de rm: El número promedio de habitaciones mantiene un impacto positivo casi lineal, con rendimientos decrecientes en rangos altos, sugiriendo incluir términos de interacción en modelos aditivos generalizados.
  3. Importancia de chas: La cercanía al río añade un efecto aditivo estable al precio, sin alterar la forma de las relaciones principales, reforzando su incorporación como variable categórica en análisis predictivos.

El uso combinado de histogramas con densidad Kernel y diagramas de dispersión con LOESS proporciona una comprensión completa de las dinámicas socioeconómicas y espaciales que configuran el mercado de vivienda en Boston, cumpliendo con estándares metodológicos y de rigor requeridos en publicaciones de estadística aplicada de alto impacto.